簡單說,這 30 個詞彙是衡量家裡有沒有礦的方式之一。
所有的組織與個人都有資料,就像整個地球的地底下都有礦物,但是有經濟價值可開採的礦藏需要符合一定的標準。通常關聯式資料庫裡面的資料,因為經過清理與整理,含金量都是較高的。但是,對於某些探索型的資料分析或主題運用,關聯式資料庫的資料反而有可能太過於乾淨而不合用(懂的人都懂)。
我與團隊長年沈浸在研究各種資料庫、資料儲存系統、各種靜態與動態的資料架構。資料庫、資料倉儲、資料湖泊等都是我們日常使用的詞彙。多年來主要客戶也都是企業中獨立編制的資料團隊,他們也很嫻熟這些資料領域專有名詞。這兩年拓展業務,進入沒有專屬資料團隊的產業,才發現「資料倉儲」不是一個常識詞彙,沒有聽過 ETL 的也很多。其中,也有很多”顧問”沒有完全理解這些詞彙,讓諮詢者更加混亂。
對這些詞彙有誤解很嚴重嗎?是的。在大企業與政府專案仍以瀑布方法與總價合約為主的前提下,無法動態修正專案範圍。這些詞彙的誤解會讓專案規劃期的需求方與供應方雞同鴨講,沒有對焦好專案目的與範圍,導致許多失敗、浪費時間與金錢的專案,就好比蓋了水庫,最終沒有水或是無法取水,因為當初沒談水源引水的工作項目。
30 個必備的資料領域詞彙包含資料庫種類、資料架構種類、資料領域方法論,以及關聯 IT 領域專有名詞,因為數位資料處理仍需借助資訊系統與軟體工程方法。詞彙列表如下:
上述專有名詞我會著重在它們跟資料或資料專案的關係,有幾個名詞我會併在一起談。希望對於「入門」資料領域的夥伴們,提供一個理解架構與範疇,有所依循。